MEAL: Multi-Model Ensemble via Adversarial Learning

本文提出基于对抗学习的策略来进行知识蒸馏,定义逐级训练损失来指导和优化预定义的学生网络以回复教师模型中的知识,并使判别器网络同时区分老师和学生特征。

简介

来源:

  • 神经网络中包含冗余信息(知识)
  • 整体神经网络较大且训练慢

提出:
基于学习的集成方法。即,学习多个神经网络的集成,而不会产生任何额外的测试成本。

利用不同神经网络输出集合作为监督训练目标网络。

网络介绍

network

三种计算teacher与student中间block损失的方法

  • L1 Loss
  • L2 Loss
  • KL 散度

中间block对齐方式采用自适应池化,损失计算方式为:
block pooling loss
其中,d表示以上三种损失计算方法之一。

pooling loss

中间block discriminator损失计算方式:
block gan loss

总体discriminator损失:
gan loss

网络总体损失:
loss

整体算法流程
algorithm

结果

CIFAR-10数据集上结果

多个数据集上错误率